Например, Бобцов

ПРИМЕНЕНИЕ МЕТОДА K-СРЕДНИХ В ЗАДАЧЕ ОЦЕНКИ ХАРАКТЕРИСТИК ПРОЦЕССА ДЛЯ ВЕБ-ПРИЛОЖЕНИЙ

Аннотация:

Предмет исследования. Исследованы подходы к решению задачи оценки характеристик процесса на примере задачи прогнозирования характеристик активности пользователей в компьютерных онлайн-играх. Рассмотрены методы машинного обучения и определены потенциальные преимущества алгоритмов кластеризации в применении к рассматриваемой задаче. Исследованы различные метрики качества алгоритмов кластеризации. Метод. На основе гипотезы, возникшей в ходе предварительного анализа данных о пользовательской активности, разработан подход к оценке характеристик процесса, использующий кластеризацию. Собраны данные об активности пользователей, для которых уже известны значения прогнозируемых характеристик. Каждый пользователь представлен в виде пары векторов: первый вектор составлен из его характеристик в первые дни активности, второй – из прогнозируемых характеристик. Векторы, представляющие пользователей в первые дни активности, используются в качестве обучающей выборки для алгоритма K-средних. За подбор параметра K отвечает специально разработанный функционал энтропийного вида, адекватный исследуемой задаче. Выделенным кластерам ставятся в соответствие усредненные по попавшим в них пользователям векторы прогнозируемых характеристик. Эти соответствия используются в качестве прогнозов характеристик для новых пользователей. Основные результаты. Предложен ориентированный на рассмотренный тип данных метод оценки качества кластеризации, позволяющий выбрать наиболее подходящее для целевой задачи число кластеров. Проведен численный эксперимент, демонстрирующий применимость разработанного метода. Практическая значимость. Применение предложенного подхода позволяет прогнозировать одновременно несколько характеристик пользователей компьютерных онлайн-игр, и, таким образом, решать различные прикладные задачи планирования и аналитики, возникающие в ходе разработки. Например, изложенный в статье метод был использован в задачах анализа окупаемости разработки новых игровых элементов и прогнозирования нагрузки на серверы с целью заблаговременного наращивания мощностей. Его преимуществами являются отсутствие необходимости экспертной разметки обучающей выборки и относительно невысокие требования к вычислительным мощностям – в силу низкой вычислительной сложности функционала качества для подбора гиперпараметра K.

Ключевые слова:

Статьи в номере